AudioLDM 2
https://audioldm.github.io/audioldm2/
Project
TTS
、
text2audio
、
text2music
にまたがる汎用的なフレームワークのために
audio language
という新しい概念を導入
audio languageは音声信号の周波数領域と時間領域の両方を考慮したものであり、音声信号の特徴や構造をよく捉えている
https://gyazo.com/91a32e43c8a0b65f0ac884a7262db9a5
GPT-2
を使いテキストをaudio languageに変換する
latent diffusion Model
を用いてaudio languageから音へ変換する
#AudioLDM